其他
基于分层自监督学习将视觉Transformer扩展到千兆像素图像
关注并星标
从此不迷路
公众号ID|ComputerVisionGzq
学习群|扫码在主页获取加入方式
计算机视觉研究院专栏
作者:Edison_G
Vision Transformers (ViT) 及其多尺度和分层变体已成功地捕获图像表示,但它们的使用通常被研究用于低分辨率图像(例如256×256、384×384)。
1
概括
2
主要框架
3
实验
HIPT中的Hierarchical Attention Maps
ViT256-16 DINO Pretraining
Hierarchical Attention Maps for Colorectal Cancer (CRC)
转载请联系本公众号获得授权
计算机视觉研究院学习群等你加入!
扫码关注
计算机视觉研究院
公众号ID|ComputerVisionGzq
学习群|扫码在主页获取加入方式
往期推荐
🔗
实用目标检测器 | 性能超YoloV5,推理耗时不变(附github源码) 霸榜第一框架:工业检测,基于差异和共性的半监督方法用于图像表面缺陷检测 CLCNet:用分类置信网络重新思考集成建模(附源代码下载) YOLOS:通过目标检测重新思考Transformer(附源代码) 工业检测:基于密集尺度特征融合&像素级不平衡学习框架(论文下载) Fast YOLO:用于实时嵌入式目标检测(附论文下载) 计算机视觉研究院:AI部署以及工业落地学习之路(文章较长,建议收藏) 目标检测干货 | 多级特征重复使用大幅度提升检测精度(文末附论文下载) 多尺度深度特征(下):多尺度特征学习才是目标检测精髓(论文免费下载) 多尺度深度特征(上):多尺度特征学习才是目标检测精髓(干货满满,建议收藏) ICCV2021目标检测:用图特征金字塔提升精度(附论文下载) CVPR21小样本检测:蒸馏&上下文助力小样本检测(代码已开源) 半监督辅助目标检测:自训练+数据增强提升精度(附源码下载)